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Die folgenden Angaben sind den vom Anmelder eingereichten Unterlagen entnommen 

Prufungsantrag gem. § 44 PatG ist gestellt 

@ Prozessor und Verfahren zum Ausfuhren von Befehlen an gepackten Daten 

@ Es werden ein Verfahren und eine Vorrichtung zum — 

Ausfiihren von skalarer Gepackte-Daten-Befehle zur Ver- 
fugung gestellt Gemafc einem Aspekt der Erfindung um- 
falSt ein Prozessor eine Mehrzahl von Registern, eine mit 
der Mehrzahl von Registern gekoppelte Registerumbe- 
nennungseinheit, einen mit der Registerumbenennungs- 
einheit gekoppelten Decodierer und eine mit dem Deco- 
dierer gekoppelte Ausfuhrungseinheit partieller Breite. 
Die Registerumbenennungseinheit stellt eine Architektur- 
registerdatei zur Verfugung, um gepackte Datenoperan- 
den zu speichern, die jeweils eine Mehrzahl von Datenele- 
menten enthalten. Der Decodierer ist so konfiguriert, daft 
er einen ersten und einen zweiten Befehlssatz decodiert, 
wobei jeder Befehl wenigstens ein Register in der Archi- 
tekturregisterdatei spezifiziert. Jeder der Befehle des er- 
sten Befehlssatzes spezifiziert Operationen, die an samtli- 
chen Datenelementen ausgefuhrt werden sollen. Im Un- 
terschied dazu spezifiziert jeder der Befehle des zweiten 
Befehlssatzes Operationen, die nur an einer Untermenge 
der in dem wenigstens einen spezifizierten Register ge- 
speicherten Datenelemente durchgefuhrt werden sollen. 
Die Ausfuhrungseinheit partieller Breite ist so konfigu- 
riert, daft sie sowohl von dem ersten als auch von dem 
zweiten Befehlssatz spezifizierte Operationen ausfuhrt. 
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Beschreibung 

Die Erfindung bezieht sich auf einen Prozessor mit einer 
Mehrzahl von Registern und einer Registerumbenennungs- 
einheit, die mit der Mehrzahl von Registern gekoppelt ist, 5 
urn eine Architekturregisterdatei zum Speichern gepackter 
Datenoperanden zur Verfugung zu stellen, wobei jeder der 
gepackten Datenoperanden eine Mehrzahl von Datenele- 
menten aufweist Ferner bezieht sich die Erfindung auf ein 
Verfahren zum Ausfuhren eines Makrobefehls in einem sol- 10 
chen Prozessor. Dabei verwendet der Prozessor beispiels- 
weise die SIMD-Technologie. 

Multimedia-Anwendungen, wie beispielsweise 2D/3D- 
Grafikanwendungen, Bildverarbeitung, Videokompression/ 
Dekompression, Spracherkennungsalgorithmen und Audio- 15 
verarbeitungen erfordern oftmals, daB die gleiche Operation 
an einer groBen Anzahl von Datenelementen ausgefiihrt 
werden soli (was als "Datenparallelitat") bezeichnet wird. 
Jede Art von Multirnediaanwendungen implementiert typi- 
scherweise einen oder mehrere Algorithmen, die eine An- 20 
zahl von Gleitkomma- oder Ganzzahloperationen, wie bei- 
spielsweise Addieren (ADD) oder Multiplizieren (MUL) er- 
fordern. Indem Makrobefehle zur Verfugung gestellt wer- 
den, deren Ausfuhrung einen Prozessor veranlaBt, die glei- 
che Operation an mehreren Datenelementen parallel auszu- 25 
fuhren (Einzelbefehl-Mehrfachdaten (SIMD)-Technologie, 
wie sie beispielsweise von der Pentium®-Prozessor-Archi- 
tektur und dem MMX-Befehlssatz verwendet wird), wurde 
eine signifikante Verbesserung bei der Leistung von Multi- 
media-Anwendungen ermoglicht (Pentium® und MMX™ 30 
sind eingetragene Marken beziehungsweise Handelsbe- 
zeichnungen der Intel Corporation in Santa Clara, Kalifor- 
nien) Die SIMD-Technologie ist insbesondere fur solche 
Systeme geeignet, die gepackte Datenformate vorsehen. Ein 
gepacktes Datenformat ist ein solches, bei dem die Bits in 35 
einem Register logisch in eine Anzahl von Datenelementen 
fester GroBe unterteilt sind, wobei jedes Datenelement einen 
separaten Wert reprasentiert. Beispielsweise kann ein 64- 
Bit-Register in vier 16-Bit-Elemente aufgeteilt warden, von 
denen jedes einen separaten 16-Bit- Wert reprasentiert. Ge- 40 
packte-Daten-Befehle konnen dann separat jedes Element in 
diesen gepackten Daten parallel verarbeiten. 

Es wird auf Fig. 1 Bezug genommen, in der ein Beispiel 
eines Gepackte-Daten-B ef ehls veranschaulicht ist. Bei die- 
sem Beispiel addiert ein gepackter ADD-Befehl (beispiels- 45 
weise ein SIMD-ADD-Befehl) zugeherige Datenelemente 
eines ersten gepackten Datenoperanden X und eines zweiten 
gepackten Datenoperanden Y, urn ein Ergebnis Z gepackter 
Daten zu erzeugen, d. h. Xo+Yo=Zo Xi+Yi=Zi X 2 +Y 2 =Z 2 
und X3+Y3=Z3. Das Packen vieler Datenelemente in ein Re- 50 
gister bzw. einen Speicherplatz und das Benutzen einer par- 
allelen Hardware- Ausfuhrung gestattet es der SIMD-Archi- 
tektur, mehrere Operationen gleichzeitig durchzufuhren, 
was zu einer signifikanten Leistungsverbesserung fiihrt. 
Beispielsweise kSnnen bei diesem Beispiel vier einzelne Er- 55 
gebnisse in derselben Zeit erlangt werden, die zuvor erfor- 
derlich war, urn ein einziges Ergebnis zu gewinnen. 

Wahrend die durch die SIMD-Architektur erreichten Vor- 
teile offensichtlich sind, verbleiben Situationen, in welchen 
es wiinschenswert ist, einzelne Ergebnisse fur nur eine Un- 60 
termenge der gepackten Datenelemente zuriickzugeben. 
Darin besteht die der Erfindung zugrundeliegende Aufgabe. 

Diese Aufgabe wird erfindungsgemaB durch einen Pro- 
zessor mit den Merkmalen des Patentanspruchs 1 bzw. ein 
Verfahren mit den Merkmalen des Patentanspruchs 6 gel6st. 65 

Es werden ein Verfahren und eine Vorrichtung (Prozes- 
sor) zum Ausfuhren von Gepackte-Daten-Befehlen fur eine 
partielle Breite angegeben. GemaB einem Aspekt der Erfin- 



dung enthalt ein Prozessor eine Mehrzahl von Registern, 
eine mit der Mehrzahl von Registern gekoppelte Register- 
umbenennungseinheit, einen mit der Registerumbenen- 
nungseinheit gekoppelten Decodierer und eine mit dem De- 
codierer gekoppelte Ausfuhrungseinheit partieller Breite. 
Die Registerumbenennungseinheit stellt eine Architekturre- 
gisterdatei zur Verfugung, um gepackte Datenoperanden zu 
speichern, von denen jeder eine Mehrzahl von Datenele- 
menten enthalt. Der Decodierer ist so konfiguriert, daB er ei- 
nen ersten und einen zweiten Befehlssatz decodieren kann, 
wobei jeder Befehl wenigstens ein Register in der Architek- 
turregisterdatei angibt. Jeder der Befehle des ersten Befehls- 
satzes spezifiziert Operationen, die an samtlichen der in dem 
wenigstens einen spezifizierten Register gespeicherten Da- 
tenelemente ausgefiihrt werden sollen. Im Unterschied dazu 
spezifiziert jeder der Befehle des zweiten Befehlssatzes 
Operationen, die nur an einer Untermenge der in dem we- 
nigstens einen spezifizierten Register gespeicherten Daten- 
elemente ausgefiihrt werden sollen. Die Ausfuhrungseinheit 
partieller Breite ist so konfiguriert, daB sie von sowohl dem 
ersten als auch von dem zweiten Satz von Befehlen spezifi- 
zierte Operationen ausfuhren kann. 

Vorteilhafte Weiterbildungen der Erfindung sind in den 
Unteranspriichen gekennzeichnet. 

Im folgenden wird die Erfindung anhand von in der 
Zeichnung beschriebenen Ausfiihrungsbeispielen naher er- 
lautert. In der Zeichnung zeigen: 

Fig- 1 einen gepackten ADD-Befehl, der zugehorige Da- 
tenelemente aus einem ersten gepackten Datenoperanden 
und einem zweiten gepackten Datenoperanden addiert. 

Fig. 2A ist eine vereinfachte Blockdarstellung, die ein 
beispiel haftes Computersystem nach einem Ausfiihrungs- 
bcispiel der Erfindung veranschaulicht. 

Fig. 2B isi eine vereinfachte Blockdarstellung, die einen 
Beispielsatz logischer Register gemaB einem Ausfuhrungs- 
beispiel der Erfindung veranschaulicht. 

Fig. 2C ist eine vereinfachte Blockdarstellung, die Bei- 
spielsatze logischer Register gemaB einem weiteren Ausfuh- 
rungsbeispiel der Erfindung veranschaulicht. 

Fig. 3 ist ein Ablaufdiagramm, das die Befehlsausfuhrung 
nach einem Ausfuhrungsbeispiel der Erfindung veranschau- 
licht. 

Fig. 4 veranschaulicht das Ergebnis der Ausfuhrung eines 
Befehls fur eine partielle Breite gepackter Daten gemaB den 
verschiedenen Ausfiihrungsbeispielen der Erfindung. 

Fig. 5A veranschaulicht eine Schaltungsanordnung zum 
Ausfuhren eines Befehls fur gepackte Daten voller Breite 
und fur gepackte Daten partieller Breite gemaB einem Aus- 
fuhrungsbeispiel der Erfindung. 

Fig. SB veranschaulicht eine Schaltungsanordnung zum 
Ausfuhren von Befehlen an gepackten Daten voller Breite 
und partieller Breite gemaB einem weiteren Ausfuhrungs- 
beispiel der Erfindung. 

Fig. 5C veranschaulicht eine Schaltungsanordnung zum 
Ausfuhren von Befehlen an gepackten Daten voller Breite 
und partieller Breite gemaB einem weiteren Ausfuhrungs- 
beispiel der Erfindung. 

Fig. 6 veranschaulicht eine ADD-Ausfuhrungseinheit 
und eine MUL-Ausfiihrungseinheit, die in der Lage sind, als 
vier separate ADD-Ausfiihrungseinheiten bzw. vier separate 
MUL-Ausfuhrungseinheiten zu arbeiten, gemaB einer bei- 
spielhaften Prozessorimplementierung von SIMD. 

Fig. 7A-7B veranschaulichen eine Operation an gepack- 
ten Daten voller Breite und eine Operation an gepackten Da- 
ten partieller Breite, die in einer "gestaffelten" Weise ausge- 
fiihrt werden. 

Fig. 8A veranschaulicht eine Schaltungsanordnung inner- 
halb eines Prozessors, die auf Operanden voller Breite aus 
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logischen Registem zugreift, wMhrend sie jeweils Operatio- 
nen an der halben Breite der Operanden ausfiihrt. 

Fig. 8B ist ein Zeitdiagramm, das die Schaltungsanord- 
nung gemaB Fig. 8A weiter veranschaulicht. 

Fig. 9 veranschaulicht ein Ausfuhrungsbeispiel einer Au- 5 
Ber-der-Reihe-Pipeline zum AusfUhren von Operationen an 
Operanden in einer "gestaffelten" Weise, indem ein Makro- 
befehl in eine Mehrzahl von Mikrobefehlen konvertiert 
wird, die jeweils einen Abschnitt des Operanden voller 
Breite bearbeiten. 10 

Fig. 10 ist ein Zeitschaubild, das das in Fig. 9 beschrie- 
bene Ausfuhrungsbeispiel weiter veranschaulicht. 

Fig. 11 ist ein Blockschaltbild, das die Dekodierlogik ver- 
anschaulicht, die benutzt werden kann, urn die decodierende 
Verarbeitung gemaB einem Ausfuhrungsbeispiel der Erfin- 15 
dung durchzufiihren. 

Es werden ein Verfahren und eine Vorrichtung zum Aus- 
fUhren von Befehlen an gepackten Daten partieller Breite 
beschrieben. Hierbei wird die Bezeichnung "Befehl an ge- 
packten Daten voller Breite" verwendet, urn einen Befehl an 20 
gepackten Daten (z. B. einen SIMD-Befehl) zu bezeichnen, 
der an samtlichen Datenelementen wenigstens eines gepack- 
ten Datenoperanden ausgefuhrt wird. Im Unterschied dazu 
bezeichnet der Begriff "Befehl an gepackten Daten partieller 
Breite" ganz allgemein einen Befehl an gepackten Daten, 25 
der nur eine Untermenge der Datenelemente des wenigstens 
einen gepackten Datenoperanden verarbeiten soil und der 
ein gepacktes Datenergebnis (beispiels weise an eine Regi- 
sterdatei gepackter Daten) zuriickgibt. Beispielsweise kann 
ein skalarer SIMD-Befehl nur ein Ergebnis einer Operation 30 
zwischen dem am geringsten bewerteten Paar von Datenele- 
menten der gepackten Datenoperanden erfordern. Bei die- 
sem Beispiel konnen die verbleibenden Datenelemente des 
gepackten Datenergebnisses unberiicksichtigt bleiben, da 
sie keinen EinfluB auf den skalaren SIMD-Befehl haben 35 
(beispielsweise konnen die verbleibenden Datenelemente 
beliebigen Inhalts sein). GemaB den verschiedenen Ausfiih- 
rungsbeispielen der Erfindung konnen Ausfuhrungseinhei- 
ten so konfiguriert werden, daB sie effizient sowohl Befehle 
an gepackten Daten voller Breite (z. B. SIMD-Befehle) als 40 
auch einen Satz von Befehlen an gepackten Daten partieller 
Breite (z. B. skalare SIMD-Befehle) unterbringen konnen. 

In der folgenden detaillierten Beschreibung werden aus 
Griinden der Erlauterung zahlreiche spezielle Details ange- 
geben, urn ein besseres Verstandnis der Erfindung zu errei- 45 
chen. Fur einen Fachmann ist es jedoch klar, daB diese spe- 
ziellen Details nicht verwendet werden miissen, um die Er- 
findung auszufiihren. An anderen Stellen werden gut be- 
kannte Einrichtungen, Strukturen, Schnittstellen und Pro- 
zesse nicht oder nur in Blockdarstellung gezeigt. 50 

Berechtigung von Befehlen an gepackten Daten partieller 
Breite 

Betrachtet man den Umfang der Software, die fur skalare 55 
Architekturen (z. B. Einzelbefehl-Einzeldaten(SISD)-Ar- 
chitekturen), die skalare Operationen an Gleitkommadaten 
einfacher Genauigkeit, Gleitkommadaten doppelter Genau- 
igkeit und Ganzzahldaten benutzen, geschrieben worden ist, 
so ist es wiinschenswert, Entwicklem die Option zur Verfii- 60 
gung zu stellen, ihre Software auf Architekturen zu portie- 
ren, die Befehle an gepackten Daten unterstiitzt, wie bei- 
spielsweise SIMD- Architekturen, ohne daB deren Software 
umgeschrieben werden muB und/oder neue Befehle gelernt 
werden miissen. Durch die Schaffung von Befehlen an ge- 65 
packten Daten partieller Breite kann eine einfache Uberset- 
zung alten skalaren Code in skalaren gepackten Datencode 
transformieren. Beispielsweise ware es sehr leicht fur einen 



Compiler, skalare SIMD-Befehle aus skalarem Code zu er- 
zeugen. Wenn dann die Entwickler rkennen, daB Ab- 
schnitte ihrer Software unter Verwendung von SIMD-Be- 
fehlen optimiert werden konnen, k&uien sie schrittweise 
Vorteil aus den Befehlen fur gepackte Daten ziehen. Selbst- 
verstandlich ist es wahrscheinlich, daB die SIMD-Technolo- 
gie benutzende Computersysteme auBerdem abwartskompa- 
tibel bleiben, indem sie SISD-Befehle ebenso unterstiitzen. 
Jedoch machen es viele jiingere Architekturverbesserungen 
und andere hier erorterte Faktoren vorteilhaft fiir Entwick- 
ler, zur SIMD-Technologie iiberzugehen und sie auszunut- 
zen, selbst wenn zunachst nur skalare SIMD-Befehle ver- 
wendet werden. 

Eine weitere Rechtfertigung fur das Vorsehen von Befeh- 
len fur gepackte Daten partieller Breite besteht in den vielen 
Vorteilen, die erreicht werden kSnnen, indem nur eine Un- 
termenge des Operanden voller Breite bearbeitet wird, ein- 
schlieBlich des reduzierten Stromverbrauchs, der erhdhten 
Geschwindigkeit, eines sauberen Ausnahmemodells und ei- 
ner erhohten Speicherung. Wie unten erlautert wird, konnen 
auf der Grundlage eines mit dem Befehl fur gepackte Daten 
partieller Breite zur Verfugung gestellten Hinweises Strom- 
einsparungen erreicht werden, indem selektiv diejenigen 
Hardwareeinheiten abgeschaltet werden, die zum AusfUhren 
der gegenwartigen Operation nicht erforderlich sind. 

Eine weitere Situation, in welcher es nicht erwtinscht ist, 
einen Befehl fiir gepackte Daten zu zwingen, einzelne Er- 
gebnisse fiir jedes Paar von Datenelementen zuruckzuge- 
ben, umfaBt arithmetische Operationen in einer Umgebung, 
die eine Hardware partieller Breite zur Verfugung stellt. In- 
folge der Kosten- und/oder Chip-Einschrankungen ist es ub- 
lich, fiir bestimmte arithmetische Operationen, wie bei- 
spielsweise das Dividieren, nicht die vollstandige Unterstiit- 
zung zur Verfugung zu stellen. Ihrer Natur nach ist die Divi- 
sionsoperation sehr lang, selbst wenn Hardware voller 
Breite (beispielsweise eine Eins-zu-eins-Korrespondenz 
zwischen Ausfuhrungseinheiten und Datenelementen) im- 
plementiert ist. Folglich wird in einer Umgebung, die nur 
Operationen an gepackten Daten voller Breite unterstiitzt, 
wahrend Hardware partieller Breite zur Verfugung gestellt 
wird, die Verzogerung noch langer. Wie unten naher veran- 
schaulicht wird, kann eine Operation fur gepackte Daten 
partieller Breite, wie beispielsweise eine Divisionsoperation 
fur gepackte Daten partieller Breite, es selektiv bestimmten 
Abschnitten ihrer Operanden gestatten, die Divisionshard- 
ware zu umgehen. Auf diese Weise wird kein Leistungs- 
nachteil dadurch verursacht, daB nur eine Untermenge der 
Datenelemente in den gepackten Datenoperanden bearbeitet 
wird. 

ZusStzlich konnen Ausnahmen, die in Verbindung mit un- 
wesentlichen Datenelementen entstehen, eine Konfusion fur 
den Entwickler und/oder eine Inkompatibilitat zwischen 
SISD- und SIMD-Maschinen verursachen. Folglich ist es 
vorteilhaft, Ausnahmen nur fur diejenigen Datenelemente 
zu berichten, fur die der Befehl gedacht ist. Eine Unterstiit- 
zung von Befehlen fur gepackte Daten partieller Breite ge- 
stattet, daB ein vorhersagbares Ausnahmemodell erreicht 
wird, indem das Auslosen von Ausnahmebedingungen auf 
diejenigen begrenzt wird, die in Verbindung mit solchen Da- 
tenelementen auftreten, die bearbeitet werden, oder bei wel- 
chen durch unwesentliche Datenelemente erzeugte Ausnah- 
men wahrscheinlich eine Konfusion oder Inkompatibilitat 
zwischen SISD- und SIMD-Maschinen verursachen wtirde. 

SchlieBlich stellen bei AusfQhrungsbeispielen, bei denen 
Abschnitte des gepackten Zieldatenoperanden nicht im Er- 
gebnis der Ausfuhrung einer Operation fur gepackte Daten 
partieller Breite verSlscht werden, Befehle fiir gepackte Da- 
ten partieller Breite effektiv einen zus&tzlichen Register- 
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raum zum Speichern von Daten zur VerfUgung. Wenn bei- 
spielsweise an dem unteren Abschnitt des gepackten Daten- 
operanden eine Operation ausgefuhrt wird, ktfnnen Daten im 
oberen Abschnitt gespeichert werden und umgekehrt 

5 

Ein Beispielcomputersystem 

Fig. 2A ist ein vereinfachtes Blockschaltbild, das ein Bei- 
spielcomputersystem gemaB einem Ausfiihrungsbeispiel der 
Erfindung veranschaulicht. Bei dem dargestellten Ausfiih- 10 
rungsbeispiel enthalt ein Computersystem 200 einen Prozes- 
sor 205, eine Speichereinrichtung 210 und einen Bus 215. 
Der Prozessor 205 ist mit der Speichereinrichtung 210 durch 
den Bus 215 gekoppelt. Zusatzlich sind eine Reihe von Be- 
nutzereingabe/Ausgabeeinrichtungen, wie beispielsweise 15 
eine Tastatur 220 und eine Anzeige 225, ebenfalls mit dem 
Bus 215 gekoppelt. Das Computersystem 200 kann dariiber 
hinaus mit einem Netzwerk 230 iiber den Bus 215 gekoppelt 
sein. Der Prozessor 205 reprasentiert eine zentrale Verarbei- 
tungseinheit einer beliebigen Architektur, wie beispiels- 20 
weise einer CISC-, RISC-, VLIW- oder Hybrid- Architektur. 
Dariiber hinaus kann der Prozessor 205 auf einem oder meh- 
reren Chips implementiert sein. Die Speichereinrichtung 
210 reprasentiert einen oder mehrere Mechanismen zum 
Speichern von Daten. Beispielsweise kann die Speicherein- 25 
richtung 210 einen Nur-Lese-Speicher (ROM), einen Spei- 
cher mit wahlfreiem Zugriff (RAM), ein magnetisches Plat- 
tenspeichermedium, ein optisches Speichermedium, Flash- 
Speicherbauelemente und/oder andere maschinenlesbare 
Medien umfassen. Der Bus 215 reprasentiert einen oder 30 
mehrere Busse (z. B. AGP, PCI, ISA, X-Bus, EISA, VESA 
usw.) und Briicken (die auch als Bussteuereinrichtungen be- 
zeichnet werden). Wahrend dieses Ausfiihrungsbeispiel in 
Bezug auf ein Einzelprozessor-Computersystem beschrie- 
ben wird, ist es klar, daB die Erfindung auch in einem Multi- 35 
Prozessor-Computersystem implementiert werden kann. 
AuBerdem ist, obwohl das vorUegende Ausfiihrungsbeispiel 
in Bezug auf ein 32-Bit- und ein 64-Bit-Computersystem 
beschrieben wird, die Erfindung nicht auf ein derartiges 
Computersystem begrenzt. 40 

Fig. 2A veranschaulicht zusatzlich, daB der Prozessor 205 
eine Befehlssatzeinheit 260 enthalt. Selbstverstandlich ent- 
halt der Prozessor 205 zusatzliche Schaltungen; jedoch sind 
derartige zusatzhche Schaltungen nicht fur das Verstandnis 
der Erfindung erforderlich. Auf jeden Fall enthalt die Be- 45 
fehlssatzeinheit 260 die Hardware und/oder Firmware zum 
Decodieren und Ausfuhren eines oder mehrerer Befehls- 
satze. Bei dem dargestellten Ausfiihrungsbeispiel enthalt die 
Befehlssatzeinheit 260 eine Dekodier/Ausflihrungs-Einheit 
275. Die Dekodiereinheit dekodiert Befehle, die von dem 50 
Prozessor 205 empfangen worden sind, in einen oder meh- 
rere Mikrobefehle. Die Ausfiihrungseinheit fuhrt in Erwide- 
rung der von der Dekodiereinheit empfangenen Mikrobe- 
fehle geeignete Operationen durch. Die Dekodiereinheit 
kann unter Verwendung einer Reihe unterschiedlicher Me- 55 
chanismen (beispielsweise einer Nachschlagetabelle, einer 
Hardware- Implementierung, einer PLA etc.) implementiert 
werden. 

Bei dem vorliegenden Beispiel ist eine Dekodier/Ausfiih- 
rungs-Einheit 275 gezeigt, die einen Befehlssatz 280 ent- 60 
halt, der sowohl Befehle ftir gepackte Daten voller Breite als 
auch Befehle fur gepackte Daten partieller Breite enthalt. 
Diese Befehle ftir gepackte Daten konnen, wenn sie ausge- 
fuhrt werden, den Prozessor 205 veranlassen, gepackte 
Gleitkommaoperationen voller/partieller Breite und/oder 65 
gepackte Ganzzahloperationen voller/partieller Breite 
durchzufiihren. Zusatzlich zu den Befehlen fiir gepackte Da- 
ten kann der Befehlssatz 280 weitere in vorhandenen Mikro- 



prozessoren zu findende Befehle nthalten. Beispielsweise 
unterstiitzt der Prozessor 205 bei einem Ausfiihrungsbei- 
spiel einen Befehlssatz, der mit der Intel-32-Bit- Architektur 
(IA-32) und/oder der Intel-64-Bit- Architektur (IA-64) kom- 
patibel ist] 

AuBerdem ist in der Befehlssatzeinheit 260 eine Spei- 
chereinheit 285 enthalten. Die Speichereinheit 285 kann ei- 
nen oder mehrere Satze von Architekturregistern (auch als 
logische Register bezeichnet), enthalten, die von dem Pro- 
zessor 205 zum Speichern von Informationen, einschlieB- 
lich Gleitkommadaten und gepackten Gleitkommadaten, be- 
nutzt werden. Zusatzlich kSnnen weitere logische Register 
zum Speichern von Ganzzahldaten, gepackten Ganzzahlda- 
ten und verschiedenen Steuerdaten, wie beispielsweise einer 
Anzeige fur die Spitze des Stapelspeichers und dergieichen, 
enthalten sein. Die Begriffe Architekturregister und logi- 
sche Register werden im folgenden verwendet, urn auf das 
Konzept der Art und Weise Bezug zu nehmen, auf welche 
Befehle einen Speicherbereich angeben, der einen einzelnen 
Operanden enthalt. So kann ein logisches Register in Hard- 
ware unter Verwendung einer beliebigen Anzahl gut be- 
kannter,Techniken implementiert sein, einschlieBlich eines 
speziellen physikalischen Registers, eines oder mehrerer dy- 
namisch unter Verwendung eines Registerumbenennungs- 
mechanismus (detaillierter unten beschrieben) zugewiese- 
ner physikalischer Register, etc. In jedem Fall reprasentiert 
ein logisches Register die kleinste Einheit eines durch einen 
Befehl fur gepackte Daten adressierbaren Speichers. 

Bei dem dargestellten Ausfiihrungsbeispiel ist in der 
Speichereinrichtung 210 ein Betriebssystem (OS) 235 und 
eine Routine fiir gepackte Daten 240 zur Ausfuhrung durch 
das Computersystem 200 gespeichert. Die Routine 240 fiir 
gepackte Daten ist eine Sequenz von Befehlen, die einen 
oder mehrere Befehle fiir gepackte Daten, wie beispiels- 
weise skalara SIMD-Befehle oder SIMD-Befehle enthalten 
kann. Wie unteri naher erortert wird, gibt es Situationen, ein- 
schlieBlich Geschwindigkeits-, Stromverbrauchs- und Aus- 
nahmebehandlung, in denen es erwiinscht ist, eine Opera- 
tion nur an einer Untermenge von Datenelementen in einem 
gepackten Datenoperanden oder einem Paar gepackter Da- 
tenoperanden durchzufiihren (oder nur fur diese Unter- 
menge einzelne Ergebnisse zuriickzugeben). Folglich ist es 
fur den Prozessor 205 vorteilhaft, in der Lage zu sein, zwi- 
schen Befehlen fiir gepackte Daten voller Breite und Befeh- 
len fur gepackte Daten partieller Breite unterscheiden zu 
konnen und diese entsprechend ausfuhren zu konnen. 

Fig. 2B ist eine vereinfachte Blockdarstellung, die Bei- 
spielsatze von logischen Registern gemaB einem Ausfiih- 
rungsbeispiel der Erfindung veranschaulicht. Bei diesem 
Beispiel enthalt die Speichereinheit 285 eine Mehrzahl ska- 
larer Gleitkommaregister 291 (eine skalare Registerdatei) 
und eine Mehrzahl gepackter Gleitkommaregister 292 (eine 
Registerdatei fiir gepackte Daten). Die skalaren Gleitkom- 
maregister 291 (z. B. die Register R0-R7) k6nnen als eine 
als Stapel referenzierte Registerdatei implementiert sein, 
wenn Gleitkommabefehle so ausgefuhrt werden, dafi sie 
kompatibel mit der vorhandenen, fur die Intel- Architektur 
geschriebenen Software sein sollen. Bei altemativen Aus- 
fiihrungsbeispielen jedoch kCnnen die Register 291 als eine 
flache Registerdatei behandelt werden. Bei dem dargestell- 
ten Ausfiihrungsbeispiel ist jedes der gepackten Gleitkom- 
maregister (z. B. XMM0-XMM7) als ein einzelnes logi- 
sches 128-Bit-Register implementiert Es ist jedoch klar, 
daB breitere oder schmalere Register benutzt werden k5n- 
nen, um an eine Implementierung angepaBt zu sein, die 
mehr oder weniger Datenelemente oder groBere oder klei- 
nere Datenelemente verwendet. Zusatzlich konnen mehr 
oder weniger packte Gleitkommaregister 292 vorgesehen 
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sein. Ahnlich wie die skalaren Gleitkommaregister291 kon- 
nen die gepackten Gleitkommaregister 292 entweder als sta- 
pelreferenzierte Registerdatei oder als flache Registerdatei 
implementiert werden, weim die gepackten Gleitkommabe- 
fehle ausgefiihrt werden 

Fig. 2C ist eine vereinfachte Blockdarstellung, die bei- 
spielhafte Satze logischer Register nach einem weiteren 
Ausfuhrungsbeispiel der Erfindung veranschaulicht. Bei 
diesem Beispiel enthalt die Speichereinheit 285 wiederum 
eine Mehrzahl skalarer Gleitkommaregister 291 (eine ska- 
lare Registerdatei) und eine Mehrzahl gepackter Gleitkom- 
maregister 292 (eine Registerdatei gepackter Daten). Jedoch 
werden bei dem dargestellten Ausfuhrungsbeispiel samtli- 
che gepackten Gleitkommaregister (z. B. XMM0-XMM7) 
als einander entsprechende Paare hoher 293 und niedriger 
Register 294 implementiert. Wie unten naher erortert wer- 
den wird, ist es fur die Zwecke der Befehlsdekodierung vor- 
teilhaft, den logischen RegisteradreBraum fiir die gepackten 
Gleitkommaregister 292 so zu organisieren, daB sich die 
Paare hoher und niedriger Register durch ein einzelnes Bit 
unterscheiden. Bei spiels weise konnen die hohen und niedri- 
gen Abschnitte von XMM0-XMM7 durch das MSB (most 
significant bit) differenziert werden. Vorzugs weise ist jedes 
der gepackten Gleitkommaregister 291 breit genug, urn vier 
32-Bit-Gleitkornmadaten-Elemente einfacher Genauigkeit 
aufzunehmen. Wie oben jedoch konnen breitere oder 
schmalere Register benutzt werden, urn an Implementierun- 
gen angepaBt zu werden, die mehr oder weniger Datenele- 
mente bzw. groBere oder kleinere Datenelemente verwen- 
den. Zusatzlich konnen, wahrend die logischen gepackten 
Gleitkommaregister 292 bei diesem Beispiel jeweils einan- 
der entsprechende Paare von 64-Bit-Registern aufweisen, 
bei alternativen Ausfuhrungsbeispielen samtliche gepackten 
Gleitkommaregister eine beliebige Anzahl von Registern 
umfassen. 

Ubersicht iiber die Befehlsausfuhrung 

Nachdem ein Beispielcomputersystem beschrieben wor- 
den ist, in welchem ein Ausfuhrungsbeispiel der Erfindung 
implementiert werden kann, wird jetzt die Befehlsausfuh- 
rung beschrieben. 

Fig. 3 ist ein Ablaufdiagramm, das die Befehlsausfuhrung 
gemafi einem Ausfuhrungsbeispiel der Erfindung veran- 
schaulicht. Im Schritt 310 wird ein Befehl durch den Prozes- 
sor 205 empfangen. Im Schritt 320 wird die Verarbeitung 
auf der Grundlage der Art des Befehls (ob es ein Befehl fiir 
gepackte Daten partieller Breite (zum Beispiel ein skalarer 
SIMD-Befehl) oder ein Befehl fiir gepackte Daten voller 
Breite (zum Beispiel ein SIMD-Befehl) ist) entweder mit 
dem Schritt 330 oder dem Schritt 340 fortgesetzt. Ublicher- 
weise wird in der Dekodiereinheit die Art des Befehls auf 
der Grundlage der in dem Befehl enthaltenen Informationen 
bestimmt Beispielsweise konnen die Informationen einen 
Prafix oder Suffix enthalten, der an den Befehlscode ange- 
hangt oder iiber einen Direktdatenwert zur Verfugung ge- 
stellt wird, urn anzuzeigen, ob die zugehorige Operation an 
sSmtlichen oder einer Untermenge der Datenelemente des 
gepackten Datenoperanden bzw. der gepackten Datenope- 
randen ausgefuhrt werden soli. Auf diese Weise kann der 
gleiche Befehlscode sowohl fur Operationen an gepackten 
Daten voller Breite als auch fur Operationen an gepackten 
Daten partieller Breite verwendet werden. Altemativ kann 
ein Satz von Befehlscodes fur Operationen an gepackten 
Daten partieller Breite und ein anderer Befehlscodesatz fur 
Operationen an gepackten Daten voller Breite verwendet 
werden. 

In jedem Fall wird dann, wenn der Befehl ein herk6mmli- 



cher Befehl fiir gepackte Daten voller Breite ist, im Schritt 
330 ein gepacktes Datenergebnis bestimmt, indem die von 
dem Befehl spezifizierte Operation an jedem der Datenele- 
mente in dem bzw. den Operanden ausgefiihrt wird. Wenn 
5 jedoch der Befehl ein Befehl fiir gepackte Daten partieller 
Breite ist, dann wird im Schritt 340 ein erster Abschnitt des 
Ergebnisses bestimmt, indem die von dem Befehl spezifi- 
zierte Operation an einer Untermenge der Datenelemente 
durchgefiihrt wird und indem der Rest des Ergebnisses auf 

10 einen oder mehrere vorgegebene Werte gesetzt wird. Bei ei- 
nem Ausfuhrungsbeispiel ist der vorgegebene Wert der Wert 
der jeweils einander entsprechenden Datenelemente in ei- 
nem der Operanden. Das heiBt, es konnen Datenelemente 
von den Datenelementen eines der Operanden zu den je- 

15 weils entsprechenden Datenelementen in dem gepackten 
Datenergebnis "durchgeleitet" werden. Bei einem anderen 
Ausfuhrungsbeispiel konnen die Datenelemente in dem ver- 
bleibenden Abschnitt des Ergebnisses samtlich geloscht (auf 
Null gesetzt) werden. Eine Beispiellogik zum Durchfuhren 

20 des Durchleitens der Datenelemente von einem der Operan- 
den zu dem Ergebnis und eine Beispiellogik zum Loschen 
der Datenelemente in dem Ergebnis werden unten beschrie- 
ben. 

Fig. 4 veranschaulicht das Ergebnis der Ausfiihrung eines 

25 Befehls fur gepackte Daten partieller Breite gemaB den ver- 
schiedenen Ausfuhrungsbeispielen der Erfindung. Bei die- 
sem Beispiel wird eine Operation an Datenelementen von 
zwei logischen Quellenregistern 410 und 420 durch eine 
Ausfuhrungseinheit 440 ausgefiihrt. Die Ausfuhrungsein- 

30 heit 440 enthalt eine Schaltungsanordnung und Logik zum 
Durchfuhren der von dem Befehl spezifizierten Operatio- 
nen. Zusatzlich kann die Ausfuhrungseinheit 440 eine Aus- 
wahlschaltung enthalten, die es der Ausfuhrungseinheit 440 
gestattet, entweder in einem Modus fiir gepackte Daten par- 

35 tieller Breite oder in einem Modus fiir gepackte Daten voller 
Breite zu arbeiten. Beispielsweise kann die Ausfuhrungsein- 
heit 440 eine Durchleitschaltung zum Durchleiten von Da- 
tenelementen von einem der logischen Quellregister 410, 
420 zu dem logischen Zielregister 430 enthalten, oder sie 

40 kann eine Loschschaltung zum Loschen eines oder mehrerer 
Datenelemente des logischen Zielregisters 430 enthalten. 
Zahlreiche andere Techniken konnen ebenf alls benutzt wer- 
den, um das Ergebnis der Operation zu beeinflussen, wobei 
diese Techniken einschlieBen, daB eines der Eingangssi- 

45 gnale fiir die Operation auf einen vorgegebenen Wert ge- 
zwungen wird, wie beispielsweise einen Wert, der die Ope- 
ration zwingen wiirde, ihre Identitatsfunktion durchzufiih- 
ren, oder einen Wert, der durch die arithmetischen Operatio- 
nen laufen kann, ohne eine Ausnahme (z. B. eine quiet not- 

50 a-number (QNaN)) zu signalisieren. 

Bei dem veranschaulichten Beispiel wird nur das Ergeb- 
nis (Zo) der Operation an dem ersten Paar von Datenelemen- 
ten (Xo und Yo) in dem logischen Zielregister 430 gespei- 
chert. Nimmt man an, daB die Ausfuhrungseinheit 440 eine 

55 Durchleitlogik enthalt, so werden die verbleibenden Daten- 
elemente des logischen Zielregisters 430 auf die Werte aus 
den zugehorigen Datenelementen des logischen Quellregi- 
sters 410 (d. h. X 3 , X 2 und Xj) gesetzt. Wahrend das logi- 
sche Zielregisters 430 als ein separates logisches Register 

60 gezeigt ist, ist es wichtig anzumerken, daB es gleichzeitig als 
eines der logischen Quellregister 410, 420 dienen kann. 
Folglich sollte es klar sein, daB das Setzen der Datenele- 
mente des logischen Zielregisters 430 auf Werte aus einem 
der logischen Quellregister 410, 420 in diesem Kontext be- 

65 deuten kann, daB in diesen Datenelementen iiberhaupt 
nichts passiert Beispielsweise konnen in dem Fall, daB das 
logische Quellregister 410 sowohl ein logisches Quell- als 
auch ein Zielregister ist, verschiedene Ausfiihrungsbeispiele 
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Vorteile daraus Ziehen, und einfach eines oder mehrere der 
Datenelemente, die durchgeleitet werden sollen, nicht be- 
riihren. 

Altemativ kann die Ausflihrungseinheit 440 eine Ldsch- 
logik enthalten. So werden anstelle des Durchleitens von 5 
Werten von einem der logischen Quellregister zu dem logi- 
schen Zielregister 430 diejenigen Datenelemente in dem Er- 
gebnis, die nicht erforderlich sind, gelGscht. Wiederum wird 
bei diesem Beispiel nur das Ergebnis (Zo) der Operation an 
dem ersten Paar von Datenelementen (Xo und Yq) in dem lo- io 
gischen Zielregister 430 gespeichert. Die verbleibenden Da- 
tenelemente des logischen Zielregisters 430 werden "ge- 
loscht" (d. h. auf Null oder auf einen anderen fur diesen Fall 
vorgegebenen Wert gesetzt). 

15 

Hardware voller Breite 

Die Fig. 5A-5C veranschaulichen Ausfuhrungseinheiten 
540, 560 bzw. 580, welche sowohl Befehle fur gepackte Da- 
ten voller Breite als auch fur gepackte Daten partieller 20 
Breite ausfuhren ktinnen. Die in den Ausfuhrungseinheiten 
gemaB Fig. 5A und 5C enthaltene Auswahllogik stellt eine 
beispielhafte Durchleitlogik dar, wahrend die Auswahllogik 
gemaB Fig. 5B fiir eine Loschlogik, die benutzt werden 
kann, reprasentativ ist. Bei den dargestellten Ausfuhrungs- 25 
beispielen enthalten die Ausfuhrungseinheiten 540, 560 und 
580 jeweils eine geeignete Logik, Schaltungsanordnung 
und/oder Firmware zum gleichzeitigen Ausfuhren einer 
Operation 570, 571 und 572 an den Operanden voller Breite 
(X und Y). 30 

Es wird jetzt auf Fig. 5 A Bezug genommen, bei der die 
Ausfuhrungseinheit 540 eine Auswahllogik (zum Beispiel 
Multiplexer (MUX) 555-557) enthalt, urn zwischen einem 
durch die Operation 570 erzeugten Wert und einem aus ei- 
nem entsprechenden Datenelement eines der Operanden 35 
herruhrenden Wert auszuwahlen. Die MUX 555-557 kon- 
nen beispielsweise durch ein Signal gesteuert werden, das 
anzeigt, ob die gerade ausgefuhrte Operation eine Operation 
an gepackten Daten voller Breite oder eine Operation an ge- 
packten Daten partieller Breite ist. Bei alternativen Ausfuh- 40 
rungsbeispielen kann eine zusatzliche Flexibilitat dadurch 
erreicht werden, dafi eine zusatzliche MUX fiir das Daten- 
element 0 eingeschlossen wird und/oder jede MUX unab- 
hangig gesteuert wird. Verschiedene Einrichtungen zum 
SchafTen einer MUX-Steuerung sind mdglich. GemaB ei- 45 
nem Ausfuhrungsbeispiel kann eine solche Steuerung aus 
dem Befehl selbst herriihren, oder aus ihm abgeleitet werden 
oder sie kann durch einen Direktwert zur Verfiigung gestellt 
werden. Beispielsweise kann ein 4-Bit-Direktwert, der dem 
Befehl zugeordnet ist, verwendet werden, urn eine direkte 50 
Steuerung der MUX 555-557 durch Software zu gestatten. 
Diejenigen Multiplexer, die zu einer Eins in dem Direktwert 
gehOren, konnen angewiesen werden, das Ergebnis der Ope- 
ration auszuwahlen, wahrend diejenigen Multiplexer, die zu 
einer Null gehoren, veranlafit werden ktinnen, das Durchlei- 55 
ten von Daten auszuwahlen. Selbstverstandlich kann eine 
grtifiere oder geringere Aufltisung bei verschiedenen Imple- 
mentierungen erreicht werden, indem mehr oder weniger 
Bits zum Darstellen des Direktwerts benutzt werden. 

Es wird jetzt auf Fig. 5B Bezug genommen, bei der die 60 
Ausfiihrungseinheit 540 eine Auswahllogik (z. B. Multiple- 
xer 565-567) zum Auswfihlen zwischen einem durch eine 
Operation 571 erzeugten Wert und einem vorgegebenen 
Wat (z. B. Null) enthalt. Wie oben, kSnnen die Multiplexer 
565-567 sich unter einer gemeinsamen Steuerung befinden 65 
oder unabhMngig gesteuert werden. 

Die Durchleitlogik gemaB Fig. 5C (z. B. Multiplexer 
575-576) wfihlt zwischen einem Datenelement eines der 



Operanden und einem Identit&tsfunktionswert 590 aus. Der 
IdentitMtsfunktionswert 590 wird grunds&tzlich so ausge- 
wahlt, daB das Ergebnis der Durchftihrung der Operation 
572 zwischen dem IdentitMtsfunktionswert 590 und dem Da- 
tenelement identisch dem Wert des Datenelements ist. Wenn 
beispielsweise die Operation 572 eine Multiplikationsopera- 
tion ware, dann ware der IdentitMtsfunktionswert 590 eine 
Eins. In ahnlicher Weise ware dann, wenn die Operation 572 
eine Additionsoperation ware, der Identitatsfunktionswert 
590 eine Null. Auf diese Weise kann der Wert eines Daten- 
elements selektiv zu dem logischen Zielregister 430 hin- 
durchgeleitet werden, indem die entsprechenden Multiple- 
xer 575-577 veranlafit werden, den Identitatsfunktionswert 
590 auszugeben. 

Bei den oben beschriebenen Ausfuhrungsbeispielen war 
die Schaltung fest verdrahtet, so dafi die Operationen par- 
tieller Breite an dem am geringsten bewerteten Datenele- 
mentabschnitt durchgefiihrt wurden. Es ist klar, daB die 
Operation an anderen Datenelementabschnitten als die dar- 
gestellten durchgefiihrt werden kann. Dariiber hinaus kon- 
nen, wie oben beschrieben wurde, die zu bearbeitenden Da- 
tenelemente durch Software konfigurierbar gemacht wer- 
den, indem samtliche der Operationen mit einem Multiple- 
xer oder dergleichen und nicht nur eine Untermenge der 
Operationen, wie es in den Fig. 5A-5C dargestellt ist, ge- 
koppelt werden. Wahrend eine Durchleit- und eine Loschlo- 
gik als zwei Optionen zum Behandeln der sich ergebenden 
Datenelemente, die Operationen entsprechen, die nicht be- 
riicksichtigt werden sollen, beschrieben werden, konnen 
dariiber hinaus alternative Ausfuhrungsbeispiele andere 
Techniken benutzen. Beispielsweise kann ein QNaN als ei- 
ner der Operanden einer Operation eingegeben werden, de- 
ren Ergebnis vemachlassigt werden soil. Auf diese Weise 
leiten Operationen, die mit dem IEEE 754-Standard, IEEE 
std. 754-1985, veroffentlicht am 21. Marz 1985, uberein- 
stimmen, ein NaN zu dem Ergebnis weiter, ohne eine arith- 
metische Ausnahme auszulosen. 

Wahrend keine deutliche Geschwindigkeitserhohung bei 
den oben beschriebenen Ausfuhrungsbeispielen erreicht 
wird, da die voile Breite der Operanden parallel verarbeitet 
werden kann, ist es klar, daB der Stromverbrauch reduziert 
werden kann, indem diejenigen der Operationen abgeschal- 
tet werden, deren Ergebnisse vemachlassigt werden. So 
konnen betrachtliche Energieeinsparungen erreicht werden. 
Dariiber hinaus kann bei Verwendung von QNaNs und/oder 
von Identitatsfunktionswerten ein vorhersagbares Ausnah- 
memodell aufrechterhalten werden, indem vermieden wird, 
daB Ausnahmen durch Datenelemente ausgelost werden, die 
nicht Teil der Operation an gepackten Daten partieller Breite 
sind. Folglich sind die berichteten Ausnahmen auf diejeni- 
gen begrenzt, die in Verbindung mit denjenigen Datenele- 
menten entstehen, an welchen die Operation fur gepackte 
Daten partieller Breite vorgibt zu arbeiten. 

Fig. 6 veranschaulicht eine aktuelle Prozessorimplemen- 
tierung einer arithmetisch-logischen Einheit (ALU), die 
zum Ausftihren von Befehlen fiir gepackte Daten voller 
Breite verwendet werden kann. Die ALU gemaB Fig. 6 ent- 
halt die Schaltung, die zum Ausftihren von Operationen an 
der vollen Breite der Operanden (d. h. an samtlichen Daten- 
elementen) erforderlich ist. Fig. 6 zeigt dariiber hinaus, daB 
die ALU mehrere unterschiedliche Arten von Ausfuhrungs- 
einheiten enthalten kann. Bei diesem Beispiel enthalt die 
ALU zwei unterschiedliche Arten von Ausfuhrungseinhei- 
ten zum AusfUhren unterschiedlicher Arten von Operatio- 
nen (z. B. verwenden bestimmte ALUs separate Einheiten 
zum DurchfUhren von ADD- und MUL-Operationen). Die 
ADD-Ausfuhrungseinheit und die MUI^ Ausfiihrungsein- 
heit sind jeweils in der Lage, als vier separate ADD-AusfUh- 
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rungseinheiten bzw. vier separate MUL-AusfUhrungseinhei- 
ten betrieben zu werden. Altemativ kann die ALU eine oder 
mehrere MultipHziere-AkkumuUere(MAC)-Einheiten ent- 
halten, die jeweils in der Lage sind, mehr als nur eine Art ei- 
ner Operation durchzufiihren. Wahrend die folgenden Bei- 5 
spiele die Verwendung von ADD- und MUL-Ausfiihrungs- 
einheiten und Gleitkommaoperationen unterstellen, ist es 
klar, daB andere Ausfuhrungseinheiten, wie beispielsweise 
MAC und/oder Ganzzahloperationen ebensogut verwendet 
werden konnen. Ferner kann es vorzuziehen sein, eine Im- 10 
plementierung partieller Breite zu benutzen (z. B. eine Im- 
plementierung mit weniger als einer Eins-zu-eins-Korre- 
spondenz zwischen den Ausfuhrungseinheiten und den Da- 
tenelementen) sowie eine zusatzliche Logik, zum Koordi- 
nieren der erneuten Verwendung der Ausfuhrungseinheiten, 15 
wie es unten beschrieben wild. 

Hardware partieller Breite und "gestaffelte Ausfiihrung" 

Die Fig. 7A-7B veranschaulichen eine Operation fur ge- 20 
packte Daten voller Breite bzw. eine in einer "gestaffelten" 
Weise durchgefiihrte Operation fur gepackte Daten par- 
tieller Breite. Im Kontext dieses Ausfiihrungsbeispiels be- 
zieht sich die "gestaffelte Ausfiihrung" auf den ProzeB des 
Unterteilens jedes der Operanden eines Befehls in separate 25 
Segmente und die sequentielle Verarbeitung jedes Segments 
unter Verwendung derselben Hardware. Die Segmente wer- 
den sequentiell verarbeitet, indem eine Verzogerung in die 
Verarbeitung aufeinanderfolgender Segmente eingefiihrt 
wird. Wie es in den Fig. 7A-7B veranschaulicht ist, werden 30 
in beiden Fallen die gepackten Datenoperanden in ein "hoch 
bewertetes Segment" (Datenelemente 3 und 2) und ein 
"niedrig bewertetes Segment" (Datenelemente 1 und 0) un- 
terteilt. Bei dem Beispiel gemaB Fig. 7A wird das niedrig 
bewertete Segment verarbeitet, wahrend das hoch bewertete 35 
Segment verzogert wird. Nachfolgend wird das hoch bewer- 
tete Segment verarbeitet, und es wird ein Ergebnis voller 
Breite erzielt. Bei dem Beispiel gemaB Fig. 7B wird das 
niedrig bewertete Segment verarbeitet, wahrend die Tatsa- 
che, ob das hoch bewertete Datensegment verarbeitet wird, 40 
von der Implementierung abhangig ist. Beispielsweise 
braucht das hoch bewertete Datensegment nicht verarbeitet 
zu werden, sofem das zugehorige Ergebnis auf Null gesetzt 
werden soli. Zusatzlich ist es klar, dafi dann, wenn das hoch 
bewertete Datensegment nicht veraibeitet wird, sowohl das 45 
hoch als auch das niedrig bewertete Datensegment zur glei- 
chen Zeit bearbeitet werden konnen. In ahnlicher Weise 
konnen bei einer Implementierung voller Breite (z. B. einer 
Implementierung mit einer Eins-zu-Eins-Korrespondenz 
zwischen Ausfuhrungseinheiten und Datenelementen) die 50 
hoch und niedrig bewerteten Datensegmente gleichzeitig 
verarbeitet werden, wie es in Fig, 7 A gezeigt ist. 

Obwohl im folgenden nur Ausfiihrungsbeispiele be- 
schrieben werden, die nur ADD- und MUL-Ausfiihrungs- 
einhdtenaufweisen,k6nnendaruberhinaus auch andere Ar- 55 
ten von Ausfiihningseinheiten, wie beispielsweise MAC- 
Einheiten, verwendet werden. 

Wahrend es eine Reihe unterschiedlicher Wege gibt, auf 
welchen die gestaffelte Ausfiihrung von Befehlen eneicht 
werden kann, beschreiben die folgenden Abschnitte zwei 60 
exemplarische Ausfiihrungsbeispiele, urn diesen Aspekt der 
Erfindung zu veranschaulichen. Insbesondere empfangen 
beide der beschrieb nen Ausfiihrungsbeispiele jeweils den- 
selben Makrobefehl, der 128-Bit-Operanden enthaltende lo- 
gische Register spezifiziert. 65 

Bei dem ersten Ausfiihrungsbeispiel bewirkt jeder Ma- 
krobefehl, der 128-Bit-Operanden enthaltende logische Re- 
gister spezifiziert, dafi auf die voile Breite der Operanden 
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aus den physikalischen Registern zugegriff n wird. Nach 
dem Zugriff auf die Operanden voller Breite aus den Regi- 
stern werden die Operanden in die niedrig und hoch bewer- 
tete Segmente unterteilt (z. B. unter Verwendung v n Latch- 
Speichern und Multiplexem) und sequentiell unter Verwen- 
dung derselben Hardware ausgeftihrt. Die resultierenden Er- 
gebnisse halber Breite werden gesammelt und dann gleich- 
zeitig in ein einziges logisches Register geschrieben. 

Im Unterschied dazu wird bei dem zweiten Ausfuhrungs- 
beispiel jeder 128-Bit-Operanden enthaltende logische Re- 
gister spezifizierende Makrobefehl in zumindest zwei Mi- 
krobefehle unterteilt, die jeweils an nur der Halfte der Ope- 
randen operieren. Somit werden die Operanden in ein hoch 
und ein niedrig bewertetes Segment unterteilt und jeder Mi- 
krobefehl bewirkt separat, daB nur auf die Halfte der Ope- 
randen aus den Registern zugegriffen wird. Diese Art einer 
Unterteilung ist bei einer SIMD-Architektur moglich, weil 
jeder der Operanden unabhangig von dem anderen ist. Wah- 
rend Implementierungen des zweiten Ausfuhrungsbeispiels 
die Mikrobefehle in einer beliebigen Reihenfolge (entweder 
in einem Inder-Reihenfolge oder einem Aufier-der-Reihe- 
Ausfiihrungsmodell) ausfiihren konnen, bewirken die jewei- 
ligen Mikrobefehle, dafi die von dem Makrobefehl spezifi- 
zierte Operation unabhangig oder separat an dem niedrig 
und hoch bewerteten Segment der Operanden durchgefuhrt 
wird. Dariiber hinaus bewirkt jeder Mikrobefehl, daB die 
Halfte der sich ergebenden Operanden in ein einziges logi- 
sches Zielregister, das durch den Makrobefehl spezifiziert 
ist, geschrieben wird. 

Wahrend Ausfiihrungsbeispiele beschrieben werden, bei 
welchen 128-Bit-Operanden in zwei Segmente unterteilt 
werden, konnten alternative Ausfiihrungsbeispiele groBere 
oder kleinere Operanden verwenden und/oder diese Operan- 
den in mehr als zwei Segmente unterteilen. Zusatzlich konn- 
ten, obwohl zwei Ausfiihrungsbeispiel zum Durchfiihren ei- 
ner gestaffelten Ausfiihrung beschrieben wurden, alterna- 
tive Ausfiihrungsbeispiele andere Techniken verwenden. 

Erstes eine "gestaffelte Ausfiihrung'' benutzendes Ausfuh- 
rungsbeispiel 

Fig, 8 A veranschaulicht eine Schaltungsanordnung inner- 
halb eines Prozessors gemaB einem ersten Ausfuhrungsbei- 
spiel, die auf Operanden voller Breite aus den logischen Re- 
gistern zugreift, aber die die Operationen jeweils an der 
Halfte der Breite der Operanden durchfiihrt. Dieses Ausfuh- 
rungsbeispiel unterstellt, daB die Prozessorausfiihrungsma- 
schine in der Lage ist, einen Befehl pro Taktzyklus zu verar- 
beiten. Als Beispiel sei angenommen, daB die folgende Se- 
quenz von Befehlen ausgefiihrt wird: ADD X,Y; MUL A3. 
Zum Zeitpunkt T werden jeweils 128 Bits von X und 
128 Bits von Y aus den jeweiligen physikalischen Registern 
iiber die Ports 1 und 2 gewonnen bzw. gelesen. Die niedriger 
bewerteten Datensegmente, mtmlich die unteren 64 Bits, 
von sowohl X als auch Y werden an die Multiplexer 802 und 
804 weitergeleitet und dann weiter zu den Ausfuhrungsein- 
heiten fur die Verarbeitung. Die h6her bewerteten Datenseg- 
mente, nSmlich die hSheren 64 Bits von X und Y werden in 
den Verzogerungselementen Ml und M2 gehalten. Zum 
Zeitpunkt T+l werden die hGher bewerteten Datensegmente 
von X und Y aus den Verzogerungselementen Ml und M2 
gelesen und an die Multiplexer 802 und 804 weitergeleitet 
und dann weiter zu den Ausfuhrungseinheiten zur Verarbei- 
tung. GrundsStzlich gestattet der VerzOgerungsmechanis- 
mus des Speichems der hoher bewerteten Datensegmente in 
den Verzogerungselementen Ml und M2 einer N-Bit-Hard- 
ware (N=64 in diesem Beispiel), 2N-Bits von Daten zu ver- 
arbeiten. Die niedrig bewerteten Ergebnisse aus der Ausfiih- 
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rungseinheit werden in dem Verzogerungselement M3 ge- 
halten, bis die hoher bewerteten Ergebnisse bereit sind. Die 
Ergebnisse beider Verarbeitungsschritte werden dann in die 
Registerdatei 800 iiber den Port 3 zuriickgeschrieben. Man 
erinnere sich, daB im Falle einer Operation fur gepackte Da- 
ten partieller Breite ein oder mehrere Datenelemente des 
niedrig oder hoch bewerteten Ergebnisses auf einen vorge- 
gebenen Wert (z. B. Null oder den Wert eines entsprechen- 
den Datenelements in entweder X oder Y) anstelle der Aus- 
gabe der ADD- oder MUL-Operation gezwungen werden 
konnen. 

Zum Zeitpunkt T+l kann dariiber hinaus der MUL-Be- 
fehl gestartet worden sein. Somit konnen zum Zeitpunkt 
T+l 128 Bits von A und B jeweils von ihren zugehorigen 
Registerri iiber die Ports 1 und 2 gelesen worden sein. Die 
niedriger bewerteten Datensegmente, namlich die unteren 
64 Bits, von sowohl A als auch B, konnen in die Multiplexer 
806 und 808 geleitet werden. Nachdem die hoher bewerte- 
ten Bits von X und Y aus den Verzogerungselementen Ml 
und M2 entfernt und in die Multiplexer 806 und 808 geleitet 
worden sind, konnen die hoher bewerteten Bits von A und B 
im Speicher der Verzogerungselemente Ml und M2 gehal- 
ten werden. Die Ergebnisse beider Verarbeitungsschritte 
werden dann in die Registerdatei 800 iiber den Port 3 zu- 
riickgeschrieben. 

Somit werden gernaB einem Ausfuhrungsbei spiel der Er- 
findung Ausfuhrungseinheiten vorgesehen, die nur die 
Halfte der Hardware enthalten (z. B. zwei ADD-Ausfiih- 
rungseinheiten einfacher Genauigkeit und zwei MUL-Aus- 
fuhrungseinheiten einfacher Genauigkeit) anstelle der Aus- 
fuhrungseinheiten, die zur parallelen Verarbeitung der vol- 
len Breite der Operanden erforderlich sind, wie sie in einem 
gegenwartigen Prozessor zu finden sind. Diese Ausfiih- 
rungsform zieht Vorteil aus einer statistischen Analyse, die 
zeigt, dafi Multimedia-Anwendungen etwa 50% ADD-Be- 
fehle und 50% MUL-Befehle verwenden. Auf der Grund- 
lage dieser Statistik unterstellt dieses Ausfuhrungsbeispiel, 
dafi Multimedia-Befehle grundsatzlich dem folgenden Mu- 
ster folgen: ADD, MUL, ADD, MUL, etc. Durch Verwen- 
den der ADD und MUL-Ausfuhrungseinheiten in der oben 
beschriebenen Weise sorgt die vorliegende Erfindung fur 
eine optimale Verwendung der Ausfuhrungseinheiten, wo- 
bei sie eine mit gegenwartigen Prozessoren vergleichbare 
Leistung zu niedrigeren Kosten ermoglicht. 

Fig. 8B ist ein Zeitdiagramm, das die Schaltung gemSB 
Fig. 8A naher veranschaulicht Wie es in Fig, 8B veran- 
schaulicht ist, fuhren die beiden ADD-Ausfiihrungseinhei- 
ten dann, wenn der Befehl "ADD X,Y" zum Zeitpunkt T 
ausgegeben wird, zunachst eine Addition der niedriger be- 
werteten Datensegmente oder der niedriger bewerteten bei- 
den gepackten Datenelement gemafi Fig. 1, namlich XoY 0 
und Xi Yi aus. Zum Zeitpunkt T+l wird die ADD-Operation 
an den verbleibenden zwei Datenelementen der Operanden 
durch dieselben Ausfuhrungseinheiten durchgefUhrt, und 
die nachfolgenden zwei Datenelemente des hoher bewerte- 
ten Datensegments werden addiert, namlich X 2 Y 2 und 
X3Y3. Wahiend das obige Ausfuhrungsbeispiel unter Be- 
zugnahme auf ADD- und MUL-Operationen unter Verwen- 
dung von zwei Ausfiilirungseinheiten beschrieben wurde, 
konnen alternative Ausfuhrungsbeispiele eine beliebige An- 
zahl von Ausfuhrungseinheiten verwenden und/oder eine 
beliebige Anzahl unterschiedlicher Operationen in einer ge- 
staffelten Weise ausfuhren. 

Gem&B diesem Ausfuhrungsbeispiel kann eine 64-Bit- 
Hardware verwendet werden, um 128-Bit-Daten zu verar- 
beiten. Ein 128-Bit-Register kann in vier 32-Bit-Elemente 
unterteilt werden, von denen jedes einen separaten 32-Bit- 
Wert reprasentiert Zum Zeitpunkt T fuhren die beiden 
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ADD-Ausfiihrungseinheiten zunachst Additionen an den 
zwei niedrigen 32-Bit- Werten durch, gefolgt von einer Ad- 
dition an den hoheren 32-Bit- Werten zum Zeitpunkt T+l. 
Im Falle einer MUL-Operation verhalten sich die MUL- 
5 Ausfuhrungseinheiten in der gleichen Weise. Diese Fahig- 
keit zu einer Verwendung gegenwaitig verfiigbarer 64-Bit- 
Hardware, um 128-Bit-Daten zu verarbeiten, stellt einen si- 
gnifikanten Kostenvorteil fur Hardware-Hersteller dar. 
Wie oben beschrieben, werden die ADD- und MUL-Aus- 
10 fulirungseinheiten gemftB dem vorliegenden Ausfiihrungs- 
beispiel emeut verwendet, um eine zweite ADD- oder 
MUL-Operation bei einem nachfolgenden Tfcktzyklus er- 
neut auszufuhren. Selbstverstandlich werden im Fall eines 
Befehls fur gepackte Daten partieller Breite die Ausfuh- 
15 rungseinheiten erneut verwendet, aber die Operation wird 
nicht notwendigerweise erneut ausgefuhrt, da die Stromver- 
sorgung zur Ausfuhrungseinheit selektiv abgeschaltet wer- 
den kann. In jedem Fall zieht, wie oben beschrieben wurde, 
dieses Ausfuhrungsbeispiel fur diese Neu- Verwendung bzw. 
20 "gestaffelte Ausfiihrung" Vorteil aus dem statistischen Ver- 
halten von Multimedia-Anwendungen. 

Wenn ein zweiter ADD-Befehl einem ersten ADD-Befehl 
folgt, kann der zweite ADD-Befehl durch eine Einplanungs- 
einheit (scheduling unit) verzogert werden, um den ADD- 
25 Ausfuhrungseinheiten zu gestatten, den ersten ADD-Befehl 
abzuschlieBen, bzw. genauer, den ADD-Befehl fur das ho- 
her bewertete Datensegment abzuschlieBen. Der zweite 
ADD-Befehl kann dann mit der Ausfiihrung beginnen. Al- 
ternativ kann bei einem AuBer-der-Reihe-Prozessor die Ein- 
30 planungseinheit besummen, daB ein MUL-Befehl, der sich 
weiter hinten im Befehlsstrom befindet, auBer der Reihe 
ausgefuhrt werden kann. Wenn dies der Fall ist, kann die 
Einplanungseinheit die MUL-Ausfuhrungseinheiten infor- 
mieren, mit der Verarbeitung des MUL-Befehls zu begin- 
35 nen. Wenn keine MUL-Befehle zur Verarbeitung zum Zeit- 
punkt T+l verfugbar sind, gibt der Einplaner keinen dem er- 
sten ADD-Befehl folgenden Befehl aus, womit den ADD- 
Ausfuhrungseinheiten Zeit gegeben wird, den ersten ADD- 
Befehl abzuschlieBen, bevor der zweite ADD-Befehl begon- 
40 nen wird. 

Noch ein weiteres Ausfiihrungsbeispiel der Erfindung ge- 
stattet, dafi ,, back-to-back"-ADD- oder -MUL-Befehle aus- 
gegeben werden, indem die Befehle auf den gleichen Aus- 
fuhrungseinheiten in halben laktzyklen anstelle von voUen 

45 Taktzyklen ausgefuhrt werden. Die Ausfiihrung eines Be- 
fehls in einem halben Taktzyklus "verdoppelt" effektiv die 
Hardware, d. h. macht die Hardware zweimal so schnell. 
Auf diese Weise konnen die ADD- oder MUL-Ausfuh- 
rungseinheiten wMhrend jedes Taktzyklus verfugbar sein, 

50 um einen neuen Befehl zu verarbeiten. Eine verdoppelte 
Hardware gestattet, daB die Hardwareeinheiten zweimal so 
effektiv ausfuhren, wie eine einfache Hardware, die nur bei 
vollstandigen Taktzyklen ausftihrt. Eine derart verdoppelte 
Hardware erfordert signifikant mehr Hardware, kann jedoch 

55 effektiv den Befehl im halben Taktzyklus verarbeiten. 

Es ist klar, daB Modifikationen und Variationen der Erfin- 
dung von der obigen Lehre abgedeckt werden und innerhalb 
des Umfangs der anhangigen Anspriiche liegen konnen, 
ohne vom Geist und Umfang der Erfindung abzuweichen. 

60 Beispielsweise kdnnen, obwohl nur zwei Ausfuhrungsein- 
heiten oben beschrieben wurden, beliebig viele logische 
Einheiten zur Verfugung gestellt werden. 

Zweites eine "gestaffelte Ausfiihrung" verwendendes Aus- 
65 fiihrungsbeispiel 

GemaB einem alternativen Ausfuhrungsbeispiel der Er- 
findung wird die gestaffelte Ausfiihrung eines Operanden 



U DE 19914 617 A 1 U 

15 16 

voller Breite erreicht, indem ein Makrobefehl fUr eine voile der Mikrobefehl liest und verarbeitet separat ein 64-Bit-Seg- 

Breite in zumindest zwei Mikrobefehle konvertiert wird, die ment der 128-Bit-Operanden. Eine der Operationen (z. B. 

jeweils an nur der Halfte der Operanden operieren. Wie un- die niedriger bewertete Operation) wird zunachst von den 

ten naher beschrieben wird, kann dann, wenn die Makrobe- 64-Bit-Hardware-Einheiten ausgefuhrt. Dann fuhrt dieselbe 

fehle eine Operation fur gepackte Daten partieller Breite 5 64-Bit-Hardware-Einheit die hGher bewertete Operation 

spezifizieren, eine bessere Leistung erreicht werden, indem aus. Es ist klar, daB kein Befehl oder auch mehrere Befehle 

Mikrobefehle eliminiert werden, die zum Bestimmen des zwischen der niedriger und der h6her bewerteten Operation 

Ergebnisses partieller Breite nicht erforderlich sind. Auf ausgefuhrt werden konnen. 

diese Weise werden die Einschrankungen der Prozessorres- Obwohl das obige Ausfuhrungsbeispiel beschreibt, daB 

sourcen reduziert, und der Prozessor wird nicht unnotiger- 10 der Makrobefehl in zwei Mikrobefehle unterteilt wird, kdn- 

weise mit wirkungslosen Mikrobefehlen okkupiert. Obwohl nen alternative Ausfiihrungsbeispiele den Makrobefehl in 

die folgende Beschreibung unter Beriicksichtigung eines mehr als zwei Mikrobefehle unterteilen. Wahrend Fig* 9 

speziellen Registerumbenennungsverfahrens beschrieben zeigt, daB die gepackten Gleitkomma-Daten an eine Retire- 

ist, ist es klar, daB andere Registerumbenennungsmechanis- ment-Registerdatei mit Y - 2 64-Bit-Registern, die jeweils 

men ebenfalls im Rahmen der Erfindung benutzt werden 15 als hoch oder niedrig bezeichnet sind, zuriickgibt, konnen 

konnen. Das unten beschriebene Registerumbenennungs- alternative Ausfiihrungsbeispiele eine Retirement-Register- 

verfahren unterstellt die Verwendung einer Register-Alias- datei mit Y 128-Bit-Registern verwenden. Zusatzlich kon- 

Tabelle (RAT), eines Umordnungspuffers (ROB) und eines nen, wahrend ein Ausfuhrungsbeispiel beschrieben ist, das 

Retirement-Puffers, wie sie im Detail in dem US-Patent Nr. einen Registerumbenennungsmechanismus mit einem Um- 

5,446,912 beschrieben sind. Alternative Registerumbenen- 20 ordnungspuffer und einer Retirement-Registerdatei auf- 

nungsverfahren, wie sie beispielsweise im US-Patent Nr. weist, alternative Ausfiihrungsbeispiele einen beliebigen 

5, 1 97, 1 32 beschrieben sind, konnen ebenfalls implementiert Registerumbenennungsmechanismus verwenden. Beispiels- 

werden. weise verwendet der Registerumbenennungsmechanismus 

Fig. 9 veranschaulicht ein Ausfuhrungsbeispiel einer gemaB dem US-Patent Nr. 5,197,132 eine Vorgeschichte- 

Pipeline zum Durchfuhren von Operationen an Operanden 25 Warteschlange und eine Back-up-Abbildung. 

in einer "gestaffelten" Weise, indem ein Makrobefehl in eine Fig. 10 ist ein Zeitdiagrarnm, das das in Fig. 9 beschrie- 

Mehrzahl von Mikrobefehlen konvertiert wird, die jeweils bene Ausfuhrungsbeispiel naher veranschaulicht. Zum Zeit- 

einen Abschnitt der Operanden voller Breite bearbeiten. Es punkt T tritt ein Makrobefehl "ADD X,Y" in die Dekodier- 

sei angemerkt, daB verschiedene andere Stufen der Pipeline, stufe der Pipeline gemaB Fig. 9 ein. Beispielsweise ist der 

zum Beispiel eine "Vorab-Heranhol-Stufe", nicht im Detail 30 Makrobefehl hier ein 128-Bit-Befehl. Der 128-Bit-Makro- 

gezeigt sind, urn die Erfindung nicht unnotigerweise zu ver- befehl wird in zwei 64-Bit-Mikrobefehle konvertiert, nam- 

dunkeln. Wie veranschauhcht, wird an der Dekodierstufe Hch die hoch bewertete Operation "ADD Xh,Y h " und die 

der Pipeline ein Makrobefehl fur eine voile Breite empfan- niedrig bewertete Operation "ADD X L ,Y L n . Jeder Mikrobe- 

gen, der logische Quellregister spezifiziert, die jeweils einen fehl bearbeitet dann ein Datensegment, das zwei Datenele- 

Operanden voller Breite (z.B. 128 Bits) speichern. Bei- 35 mente enthalt. Beispielsweise kann zum Zeitpunkt T die 

spiels weise sind die beschriebenen Operanden gepackte niedrig bewertete Operation durch eine 64-Bit- Ausfuh- 

128-Bit-Gleitkomma-Datenoperanden. Bei diesem Beispiel rungseinheit ausgefuhrt werden. Dann wird zu einem ande- 

unterstutzt der Prozessor Y logische Register zum Speichern ren Zeitpunkt (z. B. zum Zeitpunkt T+N) die holier bewer- 

gepackterGleitkornma-Daten.DerMakrobefelilwkdinMi- tete Operation durch dieselbe 64-Bit-Ausfuhrungseinheit 

krobefehle konvertiert, namlich eine "hoch bewertete Ope- 40 ausgefuhrt. Dieses Ausfuhrungsbeispiel der Erfindung ist 

ration" und eine "niedrig bewertete Operation", die jeweils somit insbesondere fur die Verarbeitung von 128-Bit-Befeh- 

bewirken, daB die Operation des Makrobefehls an der hal- len unter Verwendung vorhandener 64-Bit-Hardwaresy- 

ben Breite der Operanden (z. B. 64 Bits) durchgefiihrt wird. steme ohne signifikante Veninderungen der Hardware geeig- 

Die zwei Mikrobefehle fur die halbe Breite bewegen sich net. Die vorhandenen Systeme konnen leicht erweitert wer- 

dann in eine Registerumbenennungsstufe der Pipeline. Die 45 den, so daB sie eine neue Abbildung zum Behandeln ge- 

Registerumbenermungsstufe enthalt eine Anzahl von Regi- packter Gleitkomma-Daten zusatzlich zu den vorhandenen 

sterabbildungs- und Umordnungspuffern. Die logischen logischen Registerabbildungen enthalten. 

Quellregister jedes Mikrobefehls sind Zeiger auf spezielle Es wird jetzt auf Fig. 11 Bezug genommen; anhand der 

Registereinuiige in einer Registerabbildungstabelle (z. B. die Dekodierlogik beschrieben wird, die gemaB einem Aus- 

einer RAT). Die Eintrage in der Registerabbildungstabelle 50 fuhrungsbeispiel der Erfindung verwendet werden kann. 

wiederum zeigen auf den Ort des physikalischen Quellspei- Kurz gesagt empfangen bei dem dargestellten Ausfuhrungs- 

cherplatzes in einem ROB oder in einem Retirement-Regi- beispiel eine Mehrzahl von Decodierern 1110, 1120 und 

ster. GemaB einem Ausfuhrungsbeispiel wird, urn die oben 1130 jeweils einen Makrobefehl und konvertieren ihn in ei- 

beschriebenen hoch und niedrig bewerteten Operationen nen Mikrobefehl. Dann wird die Mikrooperation hinab zum 

halber Breite unterzubringen, eine RAT fiir gepackte Gleit- 55 Rest der Pipeline gesendet. SelbstverstandUch sind nicht N 

komma-Daten mit Y • 2 Eintragen vorgesehen. Somit wird Mikrobefehle fur die Austuhrung jedes Makrobefehls erfor- 

beispielsweise anstelle einer RAT mit den Eintragen fur 8 derlich. Folglich ist es ublicherweise der Fall, daB nur eine 

logische Register eine RAT mit 16 Eintragen erzeugt, wobei Untermenge von Mikrobefehlen zur Verarbeitung durch den 

jeder Eintrag entweder als "hoch" oder als "niedrig" adres- Rest der Pipeline eingereiht wird. 

siert wird. Jeder Eintrag identifiziert eine 64-Bit-Quelle, die 60 Wie oben beschrieben, k5nnen gepackte Datenoperatio- 

entweder einem hohen oder einem niedrigen Tbil des logi- nen als zwei Mikrobefehle halber Breite implementiert wer- 

schen 128-Bit-Registers entspricht. den (z. B. eine hoch bewertete Operation und eine niedrig 

Jeder der hoch und niedrig bewerteten Mikrobefehle bewertete Operation). Anstelle des unabhangigen Decodie- 

weist somit zugehorige Eintrage in der Registerabbildungs- rens des Makrobefehls durch zwei Decodierer, urn die hoch 

tabelle auf, die den jeweiligen Operanden entsprechen. Die 65 und die niedrig bewertete Operation zu erzeugen, wie es ty- 

Mikrobefehle werden dann in eine Einplanungsstufe (bei ei- pischerweise bei bekannten Prozessorimplementierungen 

nem AuBer-der-Reihe-Prozessor) oder an eine Ausfiihrungs- erforderlich sein wurde, konnen als Merkmal der vorliegen- 

stufe (bei einem In-der-Reihenfolge-Prozessor) bewegt. Je- den AusfUhrungsform beide Mikrobefehle durch den glei- 
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chen Decodierer erzeugt werden. Bei diesem Beispiel wind 
dies durch die Replikationslogik 1150 ausgefiihrt, welche 
entweder die hoch bewertete oder die niedrig bewertete 
Operation repliziert und nachfolgend die sich eigebende re- 
plizierte Operation geeignet modifiziert, um die verblei- 5 
bende Operation zu erzeugen. Wie oben beschrieben wurde, 
ist es wichtig, da6 durch sorgfdltiges Codieren des Registe- 
radreBraums die von den Mikrobefehlen adressierten Regi- 
ster (z. B. die logischen Quell- und Zielregister) so gebildet 
werden konnen, daB sie sich durch einziges Bit unterschei- io 
den, Im Ergebnis kann die Modifikationslogik 1160 in ihrer 
einfachsten Form einen oder mehrere Inverter aufweisen, 
um die richtigen Bits zu invertieren, um eine hoch bewertete 
Operation aus einer niedrig bewerteten Operation und um- 
gekehrt zu erzeugen. In jedem Fall wird dann der replizierte 15 
Mikrobefehl zum Multiplexer 1170 weitergeleitet. Der Mul- 
tiplexer 1170 empfangt dariiber hinaus einen von dem Deco- 
dierer 1120 erzeugten Mikrobefehl. Bei diesem Beispiel gibt 
der Multiplexer unter der Steuerung eines Gultigkeitsdeco- 
dierers 1180 den replizierten Mikrobefehl fur gepackte Da- 20 
tenoperationen (die Operationen fur gepackte Daten par- 
tieller Breite umfassen) aus und gibt den Mikrobefehl aus, 
der vom Decodierer 1120 empfangen wurde, fur von ge- 
packten Datenoperationen abweichende Operationen. Folg- 
lich ist es vorteilhaft, die Befehlscodeabbildung zu optimie- 25 
ren, um die Erfassung gepackter Datenoperationen durch die 
Replikationslogik 1150 zu vereinfachen. Wenn beispiels- 
weise nur ein geringer Abschnitt des Makrobefehls iiber- 
priift werden muB, um gepackte Datenoperationen von an- 
deren Operationen zu unterscheiden, so konnte eine gerin- 30 
gere Schaltungsmenge durch den Giiltigkeitsdecodierer 
1180 benutzt werden. 

Bei einer Implementierung, die Quelldateneleinente zu 
dem logischen Zielregister zum Zwecke der Ausfuhrung 
von Operationen fur gepackte Daten partieller Daten durch- 35 
leitet, kann zusatzlich zur Auswahllogik, ahnlich der die un- 
ter Bezugnahme auf die Fig. 5A und 5C beschrieben worden 
ist, Logik enthalten sein, um entweder die hoch oder die 
niedrig bewertete Operation zu eliminieren (zu "vernich- 
ten"). Vorzugsweise wird aus Leistungsgrunden der unwe- 40 
s ntliche Mikrobefehl friih in der Pipeline eliminiert. Diese 
Eliminierung kann gemaB dem dargestellten Ausfiihrungs- 
beispiel ausgefiihrt werden, indem ein Mikrobefehlsaus- 
wahlsignal verwendet wird, das von der Mikrobefehlslan- 
genbestimmungsschaltung 1190 ausgegeben wird. Die Mi- 45 
krobefehlslangenbestimmungsschaltung 1190 uberpriift ei- 
nen Abschnitt des Makrobefehls und erzeugt das Mikrobe- 
fehlsauswahlsignal, welches eine spezielle Kombination ei- 
ner oder mehrerer Mikrobefehle anzeigt, die water unten in 
der Pipeline ausgefUhrt werden sollen. Im Falle eines skala- 50 
ren SIMD-Befehls wird nur einer der sich ergebenden hoch 
und niedrig bewerteten Operationen gestattet, fortzufahren. 
Beispielsweise kann das Mikrobefehlsauswahlsignal durch 
eine Bitmaske repr&sentiert sein, die diejenigen der Mikro- 
befehle identifiziert, die beibehalten werden sollen, und die- 55 
jenigen, die eliminiert werden sollen. Alternativ kann das 
Mikrobefehlsauswahlsignal einfach die Nummer der Mikro- 
befehle von einem vorgegebenen Standpunkt aus anzeigen, 
die eliminiert bzw. zurtickgehalten werden sollen. Die zum 
Ausfiihren der oben beschriebenen Beseitigung erforderli- 60 
che Logik variiert in Abh&igigkeit vom Steuerungsmecha- 
nismus, der die Mikrobef hie durch den Rest der Pipeline 
leitet Wenn beispielsweise die Mikrobefehle in eine Warte- 
schlange eingereiht werden, wurde Logik hinzugeftigt wer- 
den, um den Kopf- und den Ende-Zeiger der Mikrobefehls- 65 
warteschlange zu bearbeiten, um zu bewirken, dafi ungtiltige 
Mikrobefehle durch nachfolgend erzeugte giiltige Mikrobe- 
fehle Uberschrieben werden. Zahlreiche weiteie Eliminie- 
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rungstechniken sind Fachleuten auf diesem Gebiet klar. 

Obwohl aus Griinden der Vereinfachung nur ein einzelner 
Makrobefehl gezeigt ist, der zu einem vorgegebenen Zeit- 
punkt bei dem dargestellten Ausfiihrungsbeispiel decodiert 
wird, kdnnen bei alternativen Ausfuhrungsbeispielen meh- 
rere Makrobefehle gleichzeitig decodiert werden. Dartiber 
hinaus ist es klar, daB die Mikrobefehlsreplikation eine brei- 
tere Anwendung findet, als die bei dem obigen Ausfiih- 
rungsbeispiel dargestellte. Beispielsweise konne auf eine 
Weise, die ahnlich der oben beschriebenen ist, Makrobe- 
fehle fiir gepackte Daten voller Breite und partieller Breite 
durch denselben Decodierer decodiert werden. Sofern ein 
Prefix verwendet wird, um Makrobefehle fur gepackte Da- 
ten voller Breite und partieller Breite zu unterscheiden, kann 
der Decodierer einfach den Prafix ignorieren und beide Ar- 
ten von Befehlen auf die gleiche Weise decodieren. Dann 
werden die geeigneten Bits in den sich ergebenden Mikroo- 
perationen modifiziert, um selektiv die Verarbeitung fiir ent- 
weder samtliche oder eine Untermenge der Datenelemente 
zu ermoglichen. Auf diese Weise konnen Mikrobefehle fur 
gepackte Daten voller Breite aus Mikrobefehlen fiir ge- 
packte Daten partieller Breite erzeugt werden oder umge- 
kehrt, wodurch sich die Komplexitat des Decodierers verrin- 
gert. 

Patentanspriiche 

1. Prozessor mit einer Mehrzahl von Registern und ei- 
ner Registerumbenennungseinheit, die mit der Mehr- 
zahl von Registern gekoppelt ist, um eine Architektur- 
registerdatei zum Speichern gepackter Datenoperanden 
zur Verfiigung zu stellen, wobei jeder der gepackten 
Datenoperanden eine Mehrzahl von Datenelementen 
aufweist, 

dadurch gekennzeichnet, 

dafi ein Decodierer mit der Registerumbenennungsein- 
heit gekoppelt ist, um einen ersten und einen zweiten 
Satz von Befehlen zu decodieren, die jeweils wenig- 
stens ein Register in der Architekturregisterdatei spezi- 
fizieren, wobei jeder Befehl in dem ersten Satz von Be- 
fehlen Operationen an samtlichen in dem wenigstens 
einen spezifizierten Register gespeicherten Datenele- 
mente spezifiziert, wobei jeder Befehl des zweiten Sat- 
zes von Befehlen eine Operation an nur einer Unter- 
menge der in dem wenigstens einen spezifizierten Re- 
gister gespeicherten Datenelementen spezifiziert, und 
daB eine Ausfuhrungseinheit partieller Breite mit dem 
Decodierer gekoppelt ist, um entweder von dem ersten 
oder dem zweiten Satz von Befehlen spezifizierte Ope- 
rationen auszufuhren. 

2. Prozessor nach Anspruch 1, dadurch gekennzeich- 
net, dafi die Untermenge der in einem spezifizierten 
wenigstens einen Register gespeicherten Datenele- 
mente einander entsprechende am geringsten bewertete 
Datenelemente umf afit. 

3. Prozessor nach Anspruch 1 oder 2, gekennzeichnet 
durch eine Ausfuhrungseinheit zum selektiven Ausfiih- 
ren einer spezifizierten Operation an einem oder meh- 
reren Datenelementen in dem spezifizierten wenigstens 
einen Register in Abhangigkeit davon, ob die spezifi- 
zierte Operation dem ersten oder dem zweiten Satz von 
Befehlen zugeordnet ist. 

4. Prozessor nach Anspruch 3, dadurch gekennzeich- 
net, dafi die Ausfuhrungseinheit eine Mehrzahl von 
Multiplexern aufweist, um zwischen einem Ergebnis 
der spezifizierten Operation und einem vorgegebenen 
Wert zu wahlen. 

5. Der Prozessor nach Anspruch 3, dadurch gekenn- 
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zeichnet, daB die AusfUhrungseinheit eine Mehrzahl 
von Multiplexern aufweist, urn zwischen einem der 
wenigstens einen Datenelemente und einer Identit&ts- 
funktion zur Eingabe an die spezifizierte Operation zu 
wMhlen. 5 

6. Verfahren zum Ausfuhren eines Makrobefehls in ei- 
nem Prozessor, wobei 

ein einzelner Makrobefehl empfangen wird, der zumin- 
dest zwei logische Register in einer Registerdatei ge- 
packter Daten spezifiziert, wobei die beiden logischen 10 
Register einen ersten gepackten Datenoperanden bzw. 
einen zweiten gepackten Datenoperanden speichern, 
die einander entsprechende Datenelemente aufweisen, 
und 

eine erste und eine zweite Mehrzahl der einander ent- 15 
sprechenden Datenelemente aus dem ersten bzw. dem 
zweiten gepackten Datenoperanden unabhangig zu 
verschiedenen Zeiten unter Verwendung der gleichen 
Schaltung verarbeitet werden, um unabhangig eine er- 
ste und eine zweite Mehrzahl von Ergebnisdatenele- 20 
menten zu erzeugen, indem 

eine von einern einzelnen Makrobefehl spezifizierte 
Operation an zumindest einem Paar einander entspre- 
chender Datenelemente in der ersten und der zweiten 
Mehrzahl entsprechender Datenelemente durchgefuhrt 25 
wird, um zumindest ein Ergebnisdatenelement der er- 
sten und zweiten Mehrzahl von Ergebnisdatenelemen- 
ten zu erzeugen, und 

die verbleibenden Ergebnisdatenelemente der ersten 
und zweiten Mehrzahl von Ergebnisdatenelementen 30 
auf wenigstens einen vorgegebenen Wert gesetzt wer- 
den, und 

die erste und zweite Mehrzahl von Ergebnisdatenele- 
menten in einem einzigen logischen Register als dritter 
gepackter Datenoperand gespeichert werden. 35 

7. Verfahren nach Anspruch 6, dadurch gekennzeich- 
net, daB der wenigstens eine vorgegebene Wert Werte 
der Datenelemente von entweder dem ersten gepackten 
Datenoperanden oder dem zweiten gepackten Daten- 
operanden umfaBt. 40 

8. Verfahren nach Anspruch 6, dadurch gekennzeich- 
net, daB der wenigstens eine vorgegebene Wert Null ist. 

9. Verfahren nach Anspruch 6, dadurch gekennzeich- 
net, daB der wenigstens eine vorgegebene Wert eine 
Keine-Zahl(NaN)-Anzeige ist. 45 
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